GPU编译器是复杂的软件程序,具有许多特定于目标硬件的优化。这些优化通常由使用时间和资源密集型流程的编译器专家手工设计的启发式。在本文中,我们开发了一种GPU编译器自动调节框架,使用禁止策略的深度加强学习来生成提高图形应用程序帧速率的启发式。此外,我们展示了这些学习的启发式的恢复能力,通过分析他们在没有再培训的代码检查中的一年内的稳定性来频繁编译更新。我们表明,我们的机器基于机器的学习编译器自动调节框架匹配或超过98%的图形基准的帧速率,平均隆起为1.6%,高达15.8%。
translated by 谷歌翻译
基于自我监督的基于学习的预科可以使用小标签的数据集开发可靠和广义的深度学习模型,从而减轻了标签生成的负担。本文旨在评估基于CL的预处理对可转介的性能与非转介糖尿病性视网膜病(DR)分类的影响。我们已经开发了一个基于CL的框架,具有神经风格转移(NST)增强,以生成具有更好表示和初始化的模型,以检测颜色底面图像中的DR。我们将CL预估计的模型性能与用成像网权重预测的两个最先进的基线模型进行了比较。我们通过减少标记的训练数据(降至10%)进一步研究模型性能,以测试使用小标签数据集训练模型的鲁棒性。该模型在EYEPACS数据集上进行了培训和验证,并根据芝加哥伊利诺伊大学(UIC)的临床数据进行了独立测试。与基线模型相比,我们的CL预处理的基础网模型具有更高的AUC(CI)值(0.91(0.898至0.930),在UIC数据上为0.80(0.783至0.820)和0.83(0.783至0.820)(0.801至0.853)。在10%标记的培训数据时,在UIC数据集上测试时,基线模型中的FoldusNet AUC为0.81(0.78至0.84),比0.58(0.56至0.64)和0.63(0.56至0.64)和0.63(0.60至0.66)。基于CL的NST预处理可显着提高DL分类性能,帮助模型良好(可从Eyepacs转移到UIC数据),并允许使用小的带注释的数据集进行培训,从而减少临床医生的地面真相注释负担。
translated by 谷歌翻译
对训练有素的ML模型进行连续监控,以确定其预测何时应该和不应信任的预测对于他们的安全部署至关重要。这样的框架应该是高性能,可解释的,事后和可行的。我们提出了信任范围,这是连续模型监视的“不信任”评分框架。我们使用一系列潜在空间嵌入序列评估每个输入样本模型预测的可信度。具体而言,(a)我们的潜在空间不信任得分估计了潜在空间中的距离指标(马哈拉氏症距离)和相似性指标(余弦相似性),并且(b)我们的顺序不信任得分决定了过去输入顺序的相关性偏差非参数基于滑动窗口的表示,用于可操作的连续监视。我们通过两个下游任务评估信任量:(1)分布转移的输入检测和(2)数据漂移检测,跨越不同的域 - 使用公共数据集的音频和视觉,并进一步基准了我们在具有挑战性的现实,现实世界中的脑电图(EEG)(EEG)(EEG) )数据集用于癫痫发作。我们的潜在空间不信任得分以84.1(视觉),73.9(音频),77.1(临床脑电图)的AUROCs获得最新的结果,优于10分以上。我们暴露了对输入语义内容不敏感的流行基线中的关键故障,使它们不适合现实世界模型监视。我们表明,我们的顺序不信任得分达到了高漂移检测率:超过90%的流显示所有域的误差<20%。通过广泛的定性和定量评估,我们表明我们的不信任分数更强大,并为轻松采用实践提供了解释性。
translated by 谷歌翻译
我们从一组稀疏的光谱时间序列中构建了一个物理参数化的概率自动编码器(PAE),以学习IA型超新星(SNE IA)的内在多样性。 PAE是一个两阶段的生成模型,由自动编码器(AE)组成,该模型在使用归一化流(NF)训练后概率地解释。我们证明,PAE学习了一个低维的潜在空间,该空间可捕获人口内存在的非线性特征范围,并且可以直接从数据直接从数据中准确地对整个波长和观察时间进行精确模拟SNE IA的光谱演化。通过引入相关性惩罚项和多阶段训练设置以及我们的物理参数化网络,我们表明可以在训练期间分离内在和外在的可变性模式,从而消除了需要进行额外标准化的其他模型。然后,我们在SNE IA的许多下游任务中使用PAE进行越来越精确的宇宙学分析,包括自动检测SN Outliers,与数据分布一致的样本的产生以及在存在噪音和不完整数据的情况下解决逆问题限制宇宙距离测量。我们发现,与以前的研究相一致的最佳固有模型参数数量似乎是三个,并表明我们可以用$ 0.091 \ pm 0.010 $ mag标准化SNE IA的测试样本,该样本对应于$ 0.074 \ pm。 0.010 $ mag如果删除了特殊的速度贡献。训练有素的模型和代码在\ href {https://github.com/georgestein/supaernova} {github.com/georgestein/supaernova}上发布
translated by 谷歌翻译
随着机器学习(ML)系统变得越来越普遍,有必要在部署之前审核这些系统的偏见。最近的研究开发了算法,以有效地以可解释的,表现不佳的数据(或切片)的形式有效地识别相互偏见。但是,这些解决方案及其见解是有限的,而没有用于视觉理解和与这些算法结果相互作用的工具。我们提出了Visual Auditor,这是一种交互式可视化工具,用于审核和汇总模型偏差。视觉审核员通过提供可解释的交叉偏差概述(检查由多个功能定义的人群,有问题的数据切片之间的关系以及在模型中表现不佳和表现表现不佳之间的比较之间存在的详细信息)来协助模型验证。我们的开源工具直接在计算笔记本和Web浏览器中运行,使模型审核可访问并易于集成到当前的ML开发工作流中。一项与Fiddler AI的域专家合作的观察用户研究强调,我们的工具可以帮助ML实践者识别和理解模型偏见。
translated by 谷歌翻译
医学图像分类中的域概括是可信赖的机器学习在医疗保健中的重要问题。我们发现,相对于经验风险最小化(ERM)的标准基线,利用地面真相异常分段来控制特征归因(OOD)的现有方法的方法差异(OOD)差。我们研究了图像的哪些区域对于医学图像分类很重要,并表明背景的一部分(不包含异常分割)提供了有用的信号。然后,我们开发一个新的特定任务面膜,涵盖所有相关区域。利用这种新的分割面膜可显着提高OOD测试集上现有方法的性能。为了获得比ERM更好的概括结果,我们发现除了使用这些特定任务的掩码外,还必须扩大训练数据大小。
translated by 谷歌翻译
我们提出了在表格,依赖阶段的,情节的马尔可夫决策过程中使用贝叶斯-UCBVI算法进行增强学习的:Kaufmann等人的贝叶斯-UCB算法的自然扩展。 (2012年)用于多军匪徒。我们的方法将Q值函数后部的分位数用作最佳Q值函数上的上限。对于贝叶斯-UCBVI,我们证明了一个遗憾的是$ \ wideTilde {o}(\ sqrt {h^3sat})$,其中$ h $是一集的长度,$ s $是$ s $的数量,$ a $ a $动作数量,$ t $情节数,与$ \ omega(\ sqrt {h^3sat})$符合poly-$ \ $ \ log $ enter $ h,s,s,a,a,a,a,a ,适用于足够大的$ t $的t $。据我们所知,这是第一种获得对地平线$ h $(和$ s $)的最佳依赖性的算法,而无需涉及伯恩斯坦的奖金或噪音。对于我们的分析而言,至关重要的是一种新的细粒抗浓缩,以具有独立感兴趣的加权dirichlet总和。然后,我们解释了如何轻松地将贝叶斯-UCBVI延伸到表格环境之外,从而在我们的算法和贝叶斯引导之间表现出牢固的联系(Rubin,1981)。
translated by 谷歌翻译
上下文学习是最近的自然语言理解的范例,其中大型预先接受的语言模型(LM)观察测试实例和一些训练示例作为其输入,并直接对输出进行解码,而不会对其参数进行任何更新。但是,表现已被证明强烈依赖于所选培训示例(称为提示)。在这项工作中,我们提出了一种有效的方法,用于使用注释的数据和LM检索内心学习的提示。给定输入输出对,我们估计给出输入和候选训练示例的输出的概率作为提示,以及基于这种概率的正面或负标记训练示例。然后,我们从该数据中培训一个有效的密集鼠尾,用于检索训练示例作为测试时间的提示。我们在三个序列到序列任务中评估我们的方法,其中语言话语映射到意义表示,并发现它基本上优于前面的工作和电路板的多个基线。
translated by 谷歌翻译
在临床环境中,通过视频脑电图(EEG)测试监测癫痫患者。视频EEG记录eEG设备记录其脑波时录像带的患者体验。目前,在癫痫发作期间,没有现有的自动化方法用于跟踪患者位置,以及医院患者的视频录制与公开的视频基准数据集大致不同。例如,摄像机角度可能是不寻常的,患者可以部分地覆盖有床上用品和电极组。能够与视频EEG实时跟踪患者将是提高医疗保健质量的有希望的创新。具体而言,自动患者检测系统可以补充临床监督,并降低需要连续监测患者的护士和医生的资源密集努力。我们评估了一个想象的预先训练的面罩R-CNN,一种标准的对象检测深度学习模型,用于使用我们自己的45岁患者45个视频的策划数据集的患者检测任务。数据集被聚合并策划此工作。我们展示没有微调的情况下,Imagenet预训练的掩模R-CNN模型在这些数据上表现不佳。通过微调具有我们数据集的子集的模型,我们观察患者检测性能的大量改善,平均平均精度为0.64。我们表明结果基本上取决于视频剪辑。
translated by 谷歌翻译
尽管辐射学家常规使用电子健康记录(EHR)数据来形成临床历史并通知图像解释,但医学成像的大多数深度学习架构是单向的,即,它们只能从像素级信息中学习特征。最近的研究揭示了如何从像素数据中恢复种族,仅突出显示模型中的严重偏差的可能性,这未能考虑人口统计数据和其他关键患者属性。然而,缺乏捕获临床背景的成像数据集,包括人口统计学和纵向病史,具有偏远的多式化医学成像。为了更好地评估这些挑战,我们呈现RadFusion,一种多式联运,基准数据集1794名患者的相应EHR数据和高分辨率计算断层扫描(CT)扫描标记为肺栓塞。我们评估了几个代表性的多模式融合模型,并在受保护的亚组中,例如性别,种族/种族,年龄的年龄。我们的研究结果表明,集成成像和EHR数据可以提高分类性能和鲁棒性,而不会在人口群之间的真正阳性率下引入大的差异。
translated by 谷歌翻译